Дискриминантный анализ

При дискриминантном анализе происходит создание прогностической модели для принадлежности к группе. Данная модель строит дискриминантную функцию (или, когда групп больше двух, набор дискриминантных функций) в виде линейной комбинации предикторных переменных, обеспечивающую наилучшее разделение групп. Эти функции строятся по набору наблюдений, для которых их принадлежность к группам известна, и могут в дальнейшем применяться к новым наблюдениям с известными значениями предикторных переменных, но неизвестной групповой принадлежностью.

Примечание: У группирующей переменной не может быть больше двух значений. Коды для группирующей переменной должны быть целыми, однако вам необходимо задать их максимальное и минимальное значения. Наблюдения со значениями вне этих границ исключаются из анализа.

Пример. Люди в странах с умеренным климатом ежедневно потребляют в среднем больше калорий, чем живущие в тропиках, а большая часть населения в странах с умеренным климатом живет в городах. Исследователь желает построить на основе данной информации функцию для определения того, насколько хорошо можно разделить индивидуумов по этим двум группам стран (на основе данной информации). Исследователь считает, что также важными факторами могут явиться количество населения в стране и ее экономические показатели. Дискриминантный анализ позволяет оценить коэффициенты линейной дискриминантной функции, напоминающей правую часть уравнения множественной линейной регрессии. Если обозначить коэффициенты дискриминантной функции как a , b , c и d , то ее можно записать в следующем виде:

D = a * климат + b * горожанин ли + c* население + d * валовой внутренний продукт на душу населения

Если данные переменные являются существенными для разделения двух климатических зон, значения D будут различными для стран с умеренным и тропическим климатом. При использовании метода пошагового отбора переменных может оказаться, что нет необходимости включать в функцию все четыре переменные.

Статистика. Для каждой переменной: средние значения, стандартные отклонения, однофакторный дисперсионный анализ. Для каждого анализа: M - статистика Бокса, внутригрупповая корреляционная матрица, внутригрупповая ковариационная матрица, ковариационные матрицы для отдельных групп, общая ковариационная матрица. Для каждой канонической дискриминантной функции: собственное значение, процент дисперсии, каноническая корреляция, лямбда Уилкса, хи-квадрат. Для каждого шага: априорные вероятности, коэффициенты функции Фишера, нестандартизованные коэффициенты функции, лямбда Уилкса для каждой канонической функции.

Данные для дискриминантного анализа

Данные. Группирующая переменная должна иметь ограниченное число различных категорий, кодированных целыми числами. Независимые переменные, являющиеся номинальными, должны быть перекодированы в фиктивные переменные или переменные контрастов.

Допущения. Наблюдения должны быть независимыми. Предикторные переменные должны подчиняться многомерному нормальному распределению, а внутригрупповые ковариационные матрицы должны совпадать для всех групп. Групповая принадлежность предполагается взаимоисключающей (т.е. ни одно наблюдение не принадлежит более чем одной группе) и совместно исчерпывающей (т.е. каждое наблюдение принадлежит какой-либо группе). Процедура наиболее эффективна в ситуации, когда группирующая переменная является истинно категориальной; если принадлежность к группе определяется значениями непрерывной переменной (например, высокий IQ (коэффициент интеллекта) низкий IQ ), то имеет смысл обратиться к линейной регрессии, чтобы воспользоваться преимуществом большей информативности непрерывной переменной.

Для выполнения дискриминантного анализа

Для этой функциональной возможности требуется модуль База статистики.

  1. Выберите в меню:

    Анализ > Классификация > Дискриминант...

  2. Выберите целочисленную группирующую переменную и нажмите кнопку Задать диапазон , чтобы задать нужные категории.
  3. Выберите независимые или предикторные переменные. (Если у группирующей переменной нет целых значений, то переменная с целыми значениями может быть создана с помощью пункта Автоматическая перекодировка меню Преобразовать.)
  4. Выберите метод ввода независимых переменных.
    • Вводить независимые вместе. Одновременно вводятся все независимые переменные, удовлетворяющие критериям допуска (толерантности).
    • Шаговый отбор. Для включения и исключения переменных используется шаговый метод.
  5. При желании вы можете осуществить отбор наблюдений при помощи переменной отбора.

Эта процедура вставит синтаксис команды DISCRIMINANT.